模式识别与人工智能
2025年4月4日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2016, Vol. 29 Issue (9): 780-789    DOI: 10.16451/j.cnki.issn1003-6059.201609002
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于非平稳割点的大数据分类样例选择*
王熙照1,邢 胜2,3,赵士欣2,4
1.河北大学 数学与信息科学学院 保定 071002。2.河北大学 管理学院 保定071002。3.沧州师范学院 计算机科学与工程学院 沧州 061001。4.石家庄铁道大学 数理系 石家庄 050043
Unstable Cut-Points Based Sample Selection for Large Data Classification
WANG Xizhao1, XING Sheng2,3, ZHAO Shixin2,4
1.College of Mathematics and Information Science, Hebei University, Baoding 071002.2.School of Management, Hebei University, Baoding 071002.3.College of Computer Science and Engineering, Cangzhou Normal University, Cangzhou 061001.4.Department of Mathematics and Physics, Shijiazhuang Tiedao University, Shijiazhuang 050043

全文: PDF (475 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对传统样例选择方法压缩大数据集时,存在计算复杂度较高、时间消耗较大的问题,文中提出基于非平稳割点的样例选择方法。依据在区间端点得到凸函数的极值这一基本性质,通过标记非平衡割点度量一个样例为端点的程度,然后选取端点程度较高的样例,从而避免样例之间距离的计算。该方法旨在不影响分类精度的前提下,达到压缩数据集、提高计算效率的目的。实验表明,文中方法对于类别不平衡度较高的数据集压缩效果明显,同时表现出较强的抗噪性。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
王熙照
邢 胜
赵士欣
关键词 大数据分类 样例选择 非平稳割点 决策树    
Abstract:When the traditional sample selection methods are used to compress the large data, the computational complexity and large time consumption are high. Aiming at this problem, a sample selection method based on unstable cuts for the compression of large data sets is proposed in this paper. The extreme value is obtained at the interval endpoint for convex function, and therefore the endpoint degree of a sample is measured by making the unstable cuts of all attributes according to the basic property. The samples with higher endpoint degree are selected,and the calculation of the distance between the samples is avoided. The efficiency of the computation is improved without affecting the classification accuracy. The experimental results show a significant effect of the proposed algorithm on the compression for the large data set with high imbalance ratio and strong ability of anti-noise.
Key wordsLarge Data Classification    Sample Selection    Unstable cut-points    Decision Tree   
收稿日期: 2016-05-03     
ZTFLH: TP 181  
基金资助:国家自然科学基金项目(No.713710630)、深圳市科技计划项目(No.JCYJ20150324140036825)资助
作者简介: 王熙照,男,1963年生,博士,教授,主要研究方向为机器学习、模式识别.E-mail:xizhaowang@ieee.org.邢 胜(通讯作者),男,1982年生,博士研究生,讲师,主要研究方向为机器学习.E-mail:cssxing@126.com.赵士欣,女,1978年生,博士研究生,讲师,主要研究方向为机器学习.E-mail:43136016@qq.com.
引用本文:   
王熙照,邢 胜,赵士欣. 基于非平稳割点的大数据分类样例选择*[J]. 模式识别与人工智能, 2016, 29(9): 780-789. WANG Xizhao, XING Sheng, ZHAO Shixin. Unstable Cut-Points Based Sample Selection for Large Data Classification. , 2016, 29(9): 780-789.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201609002      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2016/V29/I9/780
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn